Большие Языковые
Модели (LLM)
Силкин Сергей, ИУ3-32М
Цели данной презентации
Основы LLM
Принципы и возможности LLM.
Модели и инструменты
Обзор моделей и инструментов.
Практическое применение
Применение и ограничения LLM.
План развития и идеи
Изучение и идеи для проектов.
Что такое LLM: основные концепции
Большая языковая модель (LLM) — нейросеть,
обученная на больших текстовых данных для
прогнозирования следующего слова.
Возможности: Диалог, суммаризация, перевод,
генерация кода, извлечение фактов.
Вероятностный характер: Ответы могут меняться.
Ограничения: Галлюцинации, ограниченный
контекст, высокая стоимость, предвзятость.
Краткая история и вехи развития LLM
1
2017: Трансформеры
Архитектура Трансформеров стала
основой LLM.
22018–2020: Масштабирование GPT
GPT-1, GPT-2, GPT-3 показали
экспоненциальный рост моделей.
3
2022+: Диалоговые Ассистенты
RLHF создало диалоговых ассистентов
(ChatGPT). 42023–2024: Новые Модели
Открытые и мультимодальные модели,
расширение контекста.
Attention is all you need
Архитектура модели Scaled Dot-Product
attention
Multi-Head attnetion
https://arxiv.org/html/1706.03762
Архитектура LLM в 5 пунктах
01
Токенизация и
Позиционные Признаки
Текст в токены с позиционными
признаками для сохранения
порядка.
02
Decoder-Only Трансформер
Ядро: слои Self-Attention и MLP с
остаточными связями.
03
Контекстное Окно
Максимальная длина токенов.
Возможен эффект "lost in the
middle".
04
Mixture-of-Experts (MoE)
Повышает качество при меньших вычислениях,
активируя часть сети.
05
Качество: не только размер
Зависит от данных обучения и дообучения, не
только от параметров.
Ландшафт LLM: Категории
Закрытые API
GPT-4/4o, Claude 3:
Высочайшее качество через
облачные API.
Открытые модели
Llama 3, Mistral, Qwen2:
Гибкость, локальное
развертывание.
Мультимодальные
LLM
GPT-4o, Gemini 1.5: Текст,
изображения, аудио, видео.
Выбор модели зависит от лицензии, языка, контекстного окна и стоимости.
Выбор модели для учебного проекта
Локальное прототипирование
Модели: Mistral 7B, Qwen2 7B, Llama 3 8B (квантованные) -
для экспериментов на стандартном оборудовании.
Высокопроизводительные задачи
Модели: 8–14B, Mixtral 8x7B (требуют мощных GPU) -
для точности и большого контекста.
Премиальное качество
Облачные API: GPT-4o/Claude/Gemini -
для критически важных проектов.
Критерии выбора:
Скорость
Качество текста
Русский язык
Бюджет, ресурсы
Запуск LLM
Выбор способа запуска LLM зависит от целей и ресурсов.
Локальный запуск
Ollama, LM Studio для быстрого
запуска моделей на ПК.
Облачные платформы
Google Colab, Kaggle подходят
для экспериментов.
Используются transformers,
vLLM.
Продакшн
Для высокопроизводительного
развертывания: vLLM,
TensorRT-LLM, TGI.
Требования к ресурсам: 7B (4-бит) 6-8 GB VRAM; 13B 10-12 GB. CPU значительно медленнее.
Подсказки (Prompting) 101
Эффективные промпты раскрывают потенциал LLM.
Структура промпта:
Роль/Инструкция: Определите роль и задачу.
Контекст:Дайте фоновую информацию.
Формат ответа: Укажите ожидаемый формат (JSON, список).
Рекомендация:Запрашивайте пошаговые решения и
самопроверку для точности. Настраивайте параметры
(температура, Top-p) для контроля креативности/стабильности.
Пример: "Ты — SQL-помощник. Отвечай на русском в
формате JSON (столбцы, фильтры)."
RAG: Retrieval Augmented Generation
Когда и как использовать?
RAG используется, когда LLM отвечает на основе
внутренних документов, а не только своих предобученных
знаний.
Конвейер RAG:
Разбиение: Документы делятся на фрагменты.
Эмбеддинги: Векторные представления фрагментов.
Индекс: Хранение эмбеддингов в векторной БД.
Извлечение: Получение релевантных фрагментов по запросу.
Генерация: LLM формирует ответ из извлеченных фрагментов.
Для релевантности: гибридный поиск и переранжирование.
Инструменты: LangChain, LlamaIndex.
Спасибоза внимание!